COMET: Disección del Espacio Conceptual de la Brecha de Modalidad en Embeddings Contrastivos Multimodales de Audio-Texto
<meta content=Analizamos la brecha de modalidad en embeddings contrastivos multimodales de audio y texto, un desafío clave en el aprendizaje de representaciones. Descubre cómo mejorar la alineación y el rendimiento en modelos multimodales.>